Setup CLTK and import TLG

Follow the setup instructions from the CLTK tutorial here.


In [1]:
from cltk.corpus.utils.importer import CorpusImporter


Arabic not supported. Install `pyarabic` library to tokenize Arabic.

In [2]:
my_greek_downloader = CorpusImporter('greek')

In [3]:
my_greek_downloader.import_corpus('tlg', '~/corpora/TLG_E/')

Pre-process TLG E corpus

Covert Beta Code to Unicode

http://docs.cltk.org/en/latest/greek.html#converting-tlg-texts-with-tlgu


In [4]:
from cltk.corpus.greek.tlgu import TLGU

tlgu = TLGU()
tlgu.convert_corpus(corpus='tlg')  # writes to: ~/cltk_data/greek/text/tlg/plaintext/


Do you want to install TLGU?
To continue, press Return. To exit, Control-C.

Going to run command: cd /home/kyle/cltk_data/greek/software/greek_software_tlgu && make install
Could not install without root access. Do you want to install TLGU with sudo?
Going to run command: cd /home/kyle/cltk_data/greek/software/greek_software_tlgu && sudo make install
To continue, press Return. To exit, Control-C.

Cleanup texts

Overwrite the plaintext files with more aggresive cleanup, but keep periods.

http://docs.cltk.org/en/latest/greek.html#text-cleanup


In [5]:
!head ~/cltk_data/greek/text/tlg/plaintext/TLG0437.TXT


{ΑΠΑΓΧΟΜΕΝΟΣ} 
παράσιτον αὐτόσιτον: αὑτὸν γοῦν τρέφων 
τὰ πλεῖστα συνερανιστὸς εἶ τῷ δεσπότῃ. 
      καὶ σκάφην λαβών τινα 
τῶν ἐσχαριτῶν τῶν καθαρῶν  
{ΑΠΟΛΕΙΠΟΥΣΑ} 
τὸ γὰρ ἐνδελεχῶς μεθύειν τίν' ἡδονὴν ἔχει, 
ἀποστεροῦντα ζῶνθ' ἑαυτὸν τοῦ φρονεῖν, 
ὃ μέγιστον ἡμῶν ἀγαθὸν ἔσχεν ἡ φύσις; 

In [6]:
from cltk.corpus.utils.formatter import tlg_plaintext_cleanup
import os

In [7]:
plaintext_dir = os.path.expanduser('~/cltk_data/greek/text/tlg/plaintext/')
files = os.listdir(plaintext_dir)

for file in files:
    file = os.path.join(plaintext_dir, file)
    with open(file) as file_open:
        file_read = file_open.read()

    clean_text = tlg_plaintext_cleanup(file_read, rm_punctuation=True, rm_periods=False)
    clean_text = clean_text.lower()
    with open(file, 'w') as file_open:
        file_open.write(clean_text)

In [8]:
!head ~/cltk_data/greek/text/tlg/plaintext/TLG0437.TXT


 παράσιτον αὐτόσιτον αὑτὸν γοῦν τρέφων τὰ πλεῖστα συνερανιστὸς εἶ τῷ δεσπότῃ. καὶ σκάφην λαβών τινα τῶν ἐσχαριτῶν τῶν καθαρῶν τὸ γὰρ ἐνδελεχῶς μεθύειν τίν ἡδονὴν ἔχει ἀποστεροῦντα ζῶνθ ἑαυτὸν τοῦ φρονεῖν ὃ μέγιστον ἡμῶν ἀγαθὸν ἔσχεν ἡ φύσις; πάλιν ἡ τοῦ βίου ὑγρότης με τοῦ σοῦ τέθαιφε τὴν ἀσωτίαν ὑγρότητα γὰρ νῦν προσαγορεύουσίν τινες. λάχης. ἐγὼ δὲ πρὸς σέ. πρόαγε. ποῖ; ὅποι μ ἐρωτᾷς; ὡς φιλουμένην παρ ᾗ τἀπιδόσιμ ἡμῖν ἐστιν ἧς ἐχθὲς πιεῖν κυάθους ἕκαστον ἐβιάσω σὺ δώδεκα. εἰσῆλθεν ἡμίκραιρα τακερὰ δέλφακος ταύτης μὰ τὸν δί οὐχὶ κατέλιπον δ ἐγὼ οὐδέν. καὶ πλεκτάνην στιφρὰν σφόδρ ἐν τούτοις τέ που αἰσχυνόμενον ἧπαρ καπρίσκου σκατοφάγου. ἐγὼ δὲ πρὸς τὰ θερμὰ ταῦθ ὑπερβολῇ τοὺς δακτύλους δήπουθεν ἰδαίους ἔχω καὶ τὸν λάρυγγ ἥδιστα πυριῶ τεμαχίοις. κάμινος οὐκ ἄνθρωπος. χλωρὸν ἐρέβινθόν τινα ἐκοττάβιζον κενὸν ὅλως. τράγημα δὲ ἔστιν πιθήκου τοῦτο δήπου δυστυχοῦς. τὸν πλακοῦντα κόμμιδι οὐ μέλιτι διεκόσμει. παράσιτον αὐτόσιτον αὑτὸν γοῦν τρέφων τὰ πλεῖστα συνερανιστὸς εἶ τῷ δεσπότῃ. καὶ σκάφην λαβών τινα τῶν ἐσχαριτῶν τῶν καθαρῶν. πάλιν ἡ τοῦ βίου ὑγρότης με τοῦ σοῦ τέθαφε τὴν ἀσωτίαν ὑγρότητα γὰρ νῦν προσαγορεύουσιν τινές. τὸ γὰρ ἐνδελεχῶς μεθύειν τίν ἡδονὴν ἔχει ἀποστεροῦντα ζῶνθ ἑαυτὸν τοῦ φρονεῖν ὃ μέγιστον ἡμῶν ἀγαθὸν ἔσχεν ἡ φύσις; λάχης. ἐγὼ δὲ πρὸς σέ. πρόαγε. ποῖ; ὅποι μ ἐρωτᾶς; ὡς φιλουμένην παρ ᾗ τἀπιδόσιμ ἡμῖν ἐστιν ἧς ἐχθὲς πιεῖν κυάθους ἕκαστον ἐβιάσω σὺ δώδεκα. καὶ πλεκτάνην στιφρὰν σφόδρ ἐν τούτοις τέ που αἰσχυνόμενον ἧπαρ καπρίσκου σκατοφάγου. εἰσῆλθεν ἡμίκραιρα τακερὰ δέλφακος ταύτης μὰ τὸν δί οὐχὶ κατέλιπον δ ἐγώ οὐδέν. ἐγὼ δὲ πρὸς τὰ θερμὰ ταῦθ ὑπερβολῇ τοὺς δακτύλους δήπουθεν ἰδαίους ἔχω καὶ τὸν λάρυγγ ἥδιστα πυριῶ τεμαχίοις. κάμινος οὐκ ἄνθρωπος. χλωρὸν ἐρέβινθόν τινα ἐκοττάβιζον κενὸν ὅλως. τράγημα δέ ἔστιν πιθήκου τοῦτο δήπου δυστυχοῦς. τὸν πλακοῦντα κόμμιδι οὐ μέλιτι διεκόσμει.